Análisis de Datos Multivariantes aplicado al Marketing - Curso 2023/24
Universidad de Alicante
Dpto. de Fundamentos del Análisis Económico. Universidad de Alicante
Objetivo: buscar patrones o relaciones en los datos sin una meta clara
En ocasiones, parte del análisis exploratorio de datos.
Resultados más subjetivos: sin objetivos claros y sin mecanismos para validar los resultados (no hay respuesta correcta para comparar los resultados)
Clustering: técnicas para identificar subgrupos homogéneos de observaciones a partir de sus características observadas.
Para K dado, se divide el conjunto de datos en K grupos distintos \(\small C_1,\dots,C_K\) (no solapados)
Cada observación pertenece a un grupo
\[\scriptsize W(C_{k}) = \frac{1}{|n_{k}|}\sum_{i,i^{\prime} \in C_{k}} \sum_{j=1}^{p}(x_{ij} - x_{i^{\prime}j})^{2}\]
Conjetura inicial: asignar cada observación a un grupo (aleatoriamente)
Iterar hasta las asignaciones dejen de cambiar:
a.- Calcular el centroide \(\small m_k\) de cada grupo(vector de medias de las observaciones del grupo \(\small k\))
b.- Asignar cada observación al grupo cuyo centroide es el más cercano (distancia L2).
El resultado (óptimo local) depende de la asignación aleatoria inicial
Se DEBE ejecutar el algoritmo con varias asignaciones iniciales y seleccionar la solución con menor valor de la función objetivo
La agrupación óptima es relativamente “subjetiva”: depende de cómo se miden las similitudes, qué parámetros se utilizan para la partición, etc.
Entre los muchos métodos existentes el “método del codo” (elbow method) es relativamente sencillo
Calcular el algoritmo de clustering para diferentes valores de \(\small k\).
Para cada \(\small k\), obtener la suma cuadrática total dentro del grupo (total wss)
Dibujar un gráfico de la total wss en función de \(\small k\)
Un cambio de curvatura se considera como un indicador de \(\small k\) óptimo
fviz_nbclust():